package org.i1510.spider.utils.cbj.parser;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;

import org.i1510.common.utils.StringUtils;
import org.i1510.spider.bean.SysSpiderRuleBean;
import org.i1510.spider.utils.spider.model.FetchedPage;
import org.i1510.spider.utils.spider.queue.VisitedSpiderRuleQueue;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * @author Administrator
 *	对于网站http://caibaojian.com/c/code 的数据匹配
 * 
 */
public class ContentDescParser {
	/**
	*@Author Rambo
	*@Desc：匹配源文件的数据操作
	*@param fetchedPage 页面源文件
	*@param sysSpiderRuleBean 待取列表
	*@return TODO
	*@Version  ContentParser2.java,v 1.1 2014-9-30 下午3:01:16 
	*/
	public List<Map> parse(FetchedPage fetchedPage,SysSpiderRuleBean sysSpiderRuleBean){
		List<Map> list = new ArrayList<Map>();
		Document doc = Jsoup.parse(fetchedPage.getContent());
		StringBuffer tag = new StringBuffer();
		// 如果当前页面包含目标数据
		Map map = new HashMap();
		Elements els_title_item = doc.getElementsByClass("entry-title");
		if(els_title_item.size() > 0){
			map.put("title", els_title_item.get(0).text());
		}
		Elements els_con_item = doc.getElementsByClass("entry-content");
		if(els_con_item.size() > 0){
			map.put("descs", els_con_item.get(0).text());
		}
		
		list.add(map);
		
		// 将URL放入已爬取队列
		VisitedSpiderRuleQueue.addElement(sysSpiderRuleBean);
//		System.out.println("输出 List："+list);
		return list;
	}
	
	
}
